Welcome to the Era of Experience

経験の時代へようこそ


David Silver, Richard S. Sutton

要旨

私たちは、前例のないレベルの能力の達成を約束する人工知能の新たな時代の入り口に立っています。新世代のエージェントは、主に経験から学習することで、超人的な能力を獲得するでしょう。本稿では、この来たる時代を特徴づける重要な特徴を探ります。

ヒューマンデータの時代

人工知能(AI)は、人間が生成した膨大なデータで学習し、専門家の事例や好みに基づいて微調整することで、近年目覚ましい進歩を遂げてきました。このアプローチは、広範囲にわたる汎用性を達成した大規模言語モデル(LLM)に例証されています。現在では、単一のLLMで詩作や物理学の問題の解決から、医療問題の診断や法律文書の要約まで、幅広いタスクを実行できます。

しかし、人間を模倣することは、多くの人間の能力を十分なレベルまで再現するのに十分ですが、このアプローチだけでは、多くの重要なトピックやタスクにおいて超人的な知能を達成できておらず、おそらく達成できないでしょう。数学、コーディング、科学といった主要分野において、人間のデータから抽出される知識は急速に限界に近づいています。高品質なデータソースの大部分、つまり強力なエージェントのパフォーマンスを実際に向上させることができるものは、すでに消費されているか、まもなく消費されるでしょう。人間のデータのみを用いた教師あり学習によって推進される進歩のペースは明らかに鈍化しており、新たなアプローチの必要性を示唆しています。さらに、新しい定理、技術、科学的ブレークスルーといった価値ある新たな洞察は、現在の人間の理解の限界を超えており、既存の人間のデータでは捉えることができません。

経験の時代

さらなる飛躍的な進歩を遂げるには、新たなデータ源が必要です。このデータは、エージェントが強くなるにつれて継続的に改善される方法で生成されなければなりません。静的なデータ合成手順は、すぐに追い越されてしまいます。これは、エージェントが自身の経験、つまり環境との相互作用によって生成されるデータから継続的に学習できるようにすることで実現できます。AIは、経験が改善の主要な手段となり、最終的には今日のシステムで使用されている人間のデータの規模をはるかに超える、新たな時代の瀬戸際にいます。

この移行は、人間中心のAIの典型である大規模言語モデルにおいても、すでに始まっているかもしれません。その一例は数学の能力です。AlphaProof [20]は最近、国際数学オリンピックでメダルを獲得した最初のプログラムとなり、人間中心のアプローチ[27, 19]の性能を凌駕しました。AlphaProofの強化学習(RL)アルゴリズム1は、当初、人間の数学者によって長年かけて作成された約10万通りの形式的証明に曝され、その後、形式的証明システムとの継続的なインタラクションを通じてさらに1億通りの証明を生成しました。インタラクティブな経験に重点を置くことで、AlphaProofは既存の形式的証明の枠を超えた数学的可能性を探求し、斬新で困難な問題の解を発見することができました。非公式数学もまた、専門家が生成したデータを自己生成データに置き換えることで成功を収めています。例えば、DeepSeekの最近の研究は、強化学習の力と美しさを強調しています。モデルに問題の解決方法を明示的に教えるのではなく、適切なインセンティブを与えるだけで、モデルは高度な問題解決戦略を自律的に開発するのです。」[10]

1 強化学習アルゴリズムとは、試行錯誤によって目標を達成することを学習するアルゴリズムです。つまり、環境との相互作用の経験に基づいて行動を適応させるのです。適応は、ニューラルネットワークの重みを更新したり、環境からのフィードバックに基づいて状況に応じて適応したりするなど、様々な方法で行われます。

経験学習の潜在能力が最大限に活用されれば、驚くべき新たな能力が生まれるというのが私たちの主張です。この経験の時代は、膨大な経験データから学習するだけでなく、人間中心のAIシステムの限界をさらにいくつかの側面で打ち破るエージェントと環境によって特徴づけられるでしょう。

適切に選択されたアルゴリズムを備えた今日のテクノロジーは、これらのブレークスルーを達成するための十分に強力な基盤を既に提供していると私たちは信じています。さらに、AIコミュニティがこの課題に取り組むことで、これらの方向への新たなイノベーションが促進され、AIは真に超人的なエージェントへと急速に進化していくでしょう。

ストリーム

経験的エージェントは生涯を通じて学習を続けることができます。人間のデータの時代において、言語ベースのAIは主に短いインタラクションエピソードに焦点を当ててきました。例えば、ユーザーが質問し、(おそらく数回の思考ステップやツール使用アクションの後に)エージェントが応答するといったものです。通常、あるエピソードから次のエピソードに引き継がれる情報はほとんど、あるいは全くないため、時間の経過とともに適応することはできません。さらに、エージェントはユーザーの質問に直接答えるなど、現在のエピソード内での結果のみを目指します。対照的に、人間(および他の動物)は、長年にわたる継続的な行動と観察のストリームの中に存在します。情報はストリーム全体にわたって伝達され、彼らの行動は過去の経験から適応し、自己修正と改善を行います。さらに、目標は、ストリームの遥か未来にまで及ぶ行動と観察という観点から指定される場合があります。例えば、人間は健康の改善、言語の学習、科学的なブレークスルーの達成といった長期的な目標を達成するために行動を選択する場合があります。

強力なエージェントは、人間のように長期にわたって進化する独自の経験の流れを持つべきです。これにより、エージェントは将来の目標を達成するための行動を起こし、時間の経過とともに新しい行動パターンに継続的に適応することができます。例えば、ユーザーのウェアラブルに接続された健康とウェルネスエージェントは、睡眠パターン、活動レベル、食習慣を数か月にわたって監視することができます。そして、長期的な傾向とユーザーの具体的な健康目標に基づいて、パーソナライズされた推奨事項や励ましを提供し、ガイダンスを調整することができます。同様に、パーソナライズされた教育エージェントは、ユーザーの新しい言語学習の進捗状況を追跡し、知識のギャップを特定し、学習スタイルに適応し、数か月または数年にわたって指導方法を調整することができます。さらに、科学エージェントは、新素材の発見や二酸化炭素の削減といった野心的な目標を追求することができます。このようなエージェントは、長期間にわたって現実世界の観察を分析し、シミュレーションを開発・実行し、現実世界の実験や介入を提案することができます。

いずれの場合も、エージェントは指定された目標に関して長期的な成功を最大化するために、一連のステップを実行します。個々のステップはすぐには利益をもたらさない、あるいは短期的には有害となる場合もありますが、それでも全体としては長期的な成功に貢献する可能性があります。これは、要求に対して即座に応答するものの、行動が環境に及ぼす将来の影響を測定または最適化する能力を持たない現在のAIシステムとは大きく対照的です。

行動と観察

経験の時代のエージェントは、現実世界で自律的に行​​動します。ヒューマンデータの時代におけるLLMは、主に人間に特権的な行動や観察、つまりユーザーへのテキスト出力とユーザーからのテキスト入力をエージェントに返すことに焦点を当てていました。これは、動物が運動制御とセンサーを通して環境と相互作用する自然知能とは大きく異なります。動物、特に人間は他の動物とコミュニケーションをとることがありますが、それは特権的なチャネルではなく、他の感覚運動制御と同じインターフェースを通して行われます。

LLMがデジタル世界におけるアクション、例えばAPIの呼び出しなどによっても実行できることは、以前から認識されてきました(例えば[43]を参照)。当初、これらの能力はエージェント自身の経験からではなく、主に人間の道具使用例から生まれました。しかし、コーディングと道具使用能力は、エージェントが実際にコードを実行し、何が起こるかを観察する実行フィードバック[17, 7, 12]に基づいて構築されることが多くなりました。最近では、新しいプロトタイプエージェントの波が、人間がコンピュータを操作するのと同じインターフェースを用いることで、より一般的な方法でコンピュータと対話し始めています[3, 15, 24]。これらの変化は、人間のみが特権を持つコミュニケーションから、エージェントが世界の中で独立して行動できる、はるかに自律的な対話への移行を告げています。このようなエージェントは、世界を積極的に探索し、変化する環境に適応し、人間には思いつかないような戦略を発見することができるでしょう。

これらのより豊かなインタラクションは、デジタル世界を自律的に理解し、制御する手段を提供します。エージェントは、ユーザーインターフェースなどの「人間に優しい」行動や観察を用いることで、ユーザーとのコミュニケーションやコラボレーションを自然に促進します。また、コードの実行やAPIの呼び出しといった「機械に優しい」行動をとることで、エージェントは自らの目的を達成するために自律的に行​​動することができます。エクスペリエンスの時代においては、エージェントはデジタルインターフェースを介して現実世界ともインタラクションするようになります。例えば、科学的なエージェントは、環境センサーを監視したり、望遠鏡を遠隔操作したり、実験室でロボットアームを制御して自律的に実験を行ったりすることができます。

報酬

経験的エージェントが人間の好みだけでなく、外部のイベントや信号から学習できたらどうなるでしょうか?

人間中心の LLM は通常、人間の予断に基づいて報酬を最適化します。つまり、専門家がエージェントの行動を観察し、それが良い行動かどうかを判断するか、複数の選択肢の中から最適なエージェントの行動を選択します。たとえば、専門家は健康エージェントのアドバイス、教育アシスタントの指導、科学者エージェントの提案した実験を判断する場合があります。これらの報酬や選好は、それらの行動が環境に与える影響を測定するのではなく、その結果がない状態で人間によって決定されるため、世界の現実に直接根拠づけられていません。このように人間の予断に頼ると、通常、エージェントのパフォーマンスに天井知らずの限界が生じます。つまり、エージェントは、人間の評価者によって過小評価されているより良い戦略を発見することができません。既存の人間の知識をはるかに超える新しいアイデアを発見するには、環境自体から生じるシグナルである、根拠のある報酬を使用する必要があります。例えば、健康アシスタントは、ユーザーの健康目標を、安静時の心拍数、睡眠時間、活動レベルなどの信号の組み合わせに基づく報酬に組み込むことができます。一方、教育アシスタントは、試験結果を用いて、語学学習に対する根拠のある報酬を提供することができます。同様に、地球温暖化の軽減を目標とする科学エージェントは、二酸化炭素濃度の実験的観測に基づく報酬を使用するかもしれません。また、より強度の高い材料を発見するという目標は、引張強度やヤング率といった材料シミュレーターの測定値の組み合わせに基づいているかもしれません。

根拠のある報酬は、エージェントの環境を構成する人間から発生する可能性があります2。例えば、人間のユーザーがケーキの美味しさ、運動後の疲労感、頭痛の痛みの程度を報告することで、アシスタントエージェントはより良いレシピを提供したり、フィットネスの提案を洗練させたり、推奨される薬を改善したりすることができます。このような報酬は、エージェントの行動が環境内でどのような結果をもたらすかを測定するものであり、最終的には、提案されたケーキのレシピ、運動プログラム、または治療プログラムについて先入観を持つ人間の専門家よりも優れた支援につながるはずです。

2 経験と人間のデータは正反対ではありません。例えば、犬は完全に経験から学びますが、人間との交流もその経験の一部です。

人間のデータからではないとしたら、報酬はどこから来るのでしょうか?エージェントが豊富な行動空間と観察空間(上記参照)を通じて世界とつながるようになれば、報酬の根拠となる根拠のあるシグナルは不足することはありません。実際、世界にはコスト、エラー率、空腹感、生産性、健康指標、気候指標、利益、売上高、試験結果、成功、訪問数、収穫量、株価、いいね数、所得、快楽/苦痛、経済指標、正確性、力、距離、速度、効率、エネルギー消費といった量が溢れています。さらに、特定のイベントの発生や、観察と行動の生のシーケンスから得られる特徴から生じる無数の追加シグナルも存在します。

原理的には、それぞれが報酬として単一のグラウンディング信号に最適化する、多様なエージェントを作成することが考えられます。そのような報酬信号が1つでも、非常に効果的に最適化されていれば、広範囲に能力のある知能を誘発するのに十分である可能性があるという議論があります[34]3 これは、複雑な環境において単純な目標を達成するためには、多くの場合、多種多様なスキルを習得する必要があるためです。

3 報酬で十分という仮説は、知能とそれに関連する能力は報酬の最大化から自然に発現する可能性があると示唆しています。これには、人間との交流や人間のフィードバックに基づく報酬を含む環境が含まれる可能性があります。

しかし、単一の報酬信号の追求は、一見すると、ユーザーが望む任意の行動へと確実に誘導できる汎用AIの要件を満たしていないように思われます。では、グラウンディングされた非人間的な報酬信号の自律的な最適化は、現代のAIシステムの要件に反するのでしょうか?私たちは、これらの要件を満たす可能性のある一つのアプローチを概説することで、必ずしもそうではないと主張します。他のアプローチも可能である可能性があります。

アイデアは、グラウンディングされた信号に基づいて、ユーザー主導の方法で報酬を柔軟に適応させることです。例えば、報酬関数は、エージェントとユーザーおよび環境の両方との相互作用を入力として受け取り、スカラー報酬を出力するニューラルネットワークによって定義できます。これにより、報酬はユーザーの目標に応じて環境からの信号を選択または組み合わせることができます。例えば、ユーザーが「フィットネスを向上させる」といった大まかな目標を指定した場合、報酬関数はユーザーの心拍数、睡眠時間、歩数などの関数を返すかもしれません。あるいは、ユーザーが「スペイン語の学習を手伝ってほしい」といった目標を指定した場合、報酬関数はユーザーのスペイン語の試験結果を返すかもしれません。

さらに、ユーザーは学習プロセス中に満足度などのフィードバックを提供し、それを用いて報酬関数を微調整することができます。報酬関数は時間の経過とともに適応し、信号の選択や組み合わせの方法を改善し、不整合を特定して修正することができます。これは、ユーザーからのフィードバックを最上位の目標として最適化し、環境からのグラウンデッドシグナルを下位の目標として最適化する、二階層の最適化プロセスとして理解することもできます。4 このように、少量の人間のデータから大量の自律学習を促進できる可能性があります。

4 この場合、根拠のある人間のフィードバックは、エージェントの全体的な目的を形成する単一の報酬関数と見なすこともできます。これは、豊富で根拠のあるフィードバックに基づいて内在的報酬関数 [8] を構築および最適化することによって最大化されます。

計画と推論

経験の時代は、エージェントの計画と推論の方法を変えるのでしょうか?近年、言語で「考える」、つまり推論できるLLM(言語言語モデル)[23, 14, 10]を用いて大きな進歩が遂げられています。LLMは、思考の連鎖を辿ってから応答を出力することで、推論を行います[16]。概念的には、LLMは汎用コンピュータ[30]として機能することができます。LLMは自身のコンテキストにトークンを追加することで、最終結果を出力する前に任意のアルゴリズムを実行することができます。

ヒューマンデータの時代において、これらの推論手法は人間の思考プロセスを模倣するように明確に設計されています。例えば、LLMは人間のような思考の連鎖を出力したり[16]、人間の思考の痕跡を模倣したり[42]、人間の例に一致する思考ステップを強化したりするように促されています[18]。推論プロセスはさらに微調整され、人間の専門家が決定した正解に一致する思考痕跡を生成することもあります[44]。

しかし、人間の言語が万能コンピュータの最適な例となる可能性は極めて低い。より効率的な思考メカニズムは確かに存在し、例えば記号計算、分散計算、連続計算、微分計算といった非人間言語を用いる。自己学習システムは原理的には、経験から思考方法を学習することで、そのようなアプローチを発見したり、改善したりすることができる。例えば、AlphaProofは人間の数学者とは全く異なる方法で、複雑な定理を形式的に証明することを学習した[20]。

さらに、汎用コンピュータの原理はエージェントの内部計算のみを対象としており、それを外界の現実と結びつけるものではありません。人間の思考を模倣したり、人間の専門家の回答に匹敵するように訓練されたエージェントは、誤った仮定や固有のバイアスなど、データに深く埋め込まれた誤った思考方法を受け継いでいる可能性があります。例えば、あるエージェントが5,000年前の人間の思考と専門家の回答を用いて推論するように訓練されていたとしたら、物理的な問題についてアニミズムの観点から推論していたかもしれません。1,000年前は有神論の観点から推論していたかもしれません。300年前はニュートン力学の観点から推論していたかもしれません。そして50年前は量子力学の観点から推論していたかもしれません。それぞれの思考方法を超えるには、現実世界との相互作用、つまり仮説を立て、実験を実行し、結果を観察し、それに応じて原理を更新することが必要でした。同様に、エージェントが誤った思考方法を覆すためには、現実世界のデータに基づいていなければなりません。このグラウンディングはフィードバックループを提供し、エージェントは受け継いだ仮定を現実に照らし合わせて検証し、現在の支配的な人間の思考様式にとらわれない新たな原理を発見することを可能にします。このグラウンディングがなければ、エージェントはいかに洗練されたものであっても、既存の人間の知識のエコーチェンバーと化してしまうでしょう。そこから脱却するためには、エージェントは積極的に世界と関わり、観察データを収集し、そのデータを用いて理解を反復的に洗練させる必要があります。これは、人類の科学的進歩を推進してきたプロセスを多くの点で反映しています。

思考を外界に直接的に根付かせる一つの方法は、報酬予測を含め、エージェントの行動が世界に与える影響を予測する世界モデル [37] を構築することです。例えば、ヘルスアシスタントは、地元のジムや健康ポッドキャストを推奨することを検討するかもしれません。エージェントの世界モデルは、この行動の後にユーザーの心拍数や睡眠パターンがどのように変化するかを予測するだけでなく、ユーザーとの将来の対話も予測するかもしれません。これにより、エージェントは自身の行動とその世界への因果的影響について直接計画を立てることができます [36, 29]。エージェントが経験の流れの中で世界と相互作用し続けるにつれて、そのダイナミクスモデルは継続的に更新され、予測の誤りを修正します。世界モデルが与えられた場合、エージェントはスケーラブルな計画手法を適用することで、予測されるエージェントのパフォーマンスを向上させることができます。

計画と推論の方法は相互に排他的ではありません。エージェントは内部 LLM 計算を適用して、計画中に各アクションを選択したり、それらのアクションの結果をシミュレートして評価したりすることができます。

なぜ今なのか?

経験からの学習は新しいことではありません。強化学習システムはこれまで、明確な報酬信号を持つシミュレータで表現された多数の複雑なタスクを習得してきました(図1の「シミュレーションの時代」と概ね同じ)。たとえば、RL手法は、バックギャモン[39]、囲碁[31]、チェス[32]、ポーカー[22, 6]、ストラテゴ[26]などのボードゲーム、Atari[21]、StarCraft II[40]、Dota 2[4]、グランツーリスモ[41]などのビデオゲーム、ルービックキューブ[1]などの器用な操作タスク、データセンターの冷却[13]などのリソース管理タスクでのセルフプレイを通じて、人間のパフォーマンスに匹敵または上回りました。さらに、AlphaZero[33]などの強力なRLエージェントは、ニューラルネットワークのサイズ、対話型経験の量、および思考時間の長さに関して、印象的で潜在的に無制限のスケーラビリティを示しました。しかし、このパラダイムに基づくエージェントは、シミュレーション (単一かつ正確に定義された報酬を伴う閉じた問題) と現実 (複数の、一見定義が曖昧な報酬を伴うオープンエンドの問題) の間のギャップを飛び越えることはできませんでした。

図1:主要なAIパラダイムの概略的な年表。Y軸は、その分野における総労力と計算のうち、強化学習(RL)に重点が置かれている割合を示しています。

ヒューマンデータの時代は魅力的な解決策をもたらしました。膨大なヒューマンデータのコーパスには、多種多様なタスクに対応する自然言語の例が含まれています。このデータで訓練されたエージェントは、シミュレーション時代の限定的な成功と比較して、幅広い能力を達成しました。その結果、経験に基づく強化学習の手法は、より汎用的なエージェントに取って代わられ、人間中心のAIへの広範な移行が起こりました。

しかし、この移行で失われたものがあります。それは、エージェントが自分の知識を自己発見する能力です。たとえば、AlphaZero はチェスと囲碁の根本的に新しい戦略を発見し、人間がこれらのゲームをプレイする方法を変えました [28, 45]。経験の時代は、この能力と人間のデータの時代に達成されたタスクの一般性のレベルを調和させます。これは、上で概説したように、エージェントが現実世界の経験の流れの中で自律的に行​​動し、観察できるようになり [11]、報酬が豊富な根拠のある現実世界の信号のいずれかに柔軟に接続できるようになったときに可能になります。複雑な現実世界の行動空間と対話する自律エージェントの出現 [3, 15, 24] と、豊富な推論空間でオープンエンドの問題を解決できる強力な RL 手法の出現 [20, 10] は、経験の時代への移行が差し迫っていることを示唆しています。

強化学習(RL)手法

強化学習は、エージェントが環境と直接相互作用することで自ら学習する自律学習に深く根ざした豊かな歴史を持っています。初期のRL研究では、一連の強力な概念とアルゴリズムが生み出されました。たとえば、時間差分学習[35]は、エージェントが将来の報酬を予測することを可能にし、バックギャモンにおける超人的なパフォーマンス[39]などのブレークスルーにつながりました。楽観主義や好奇心によって駆動される探索技術は、エージェントが創造的な新しい行動を発見し、次善のルーチンに陥るのを避けるために開発されました[2]。Dynaアルゴリズムなどの手法により、エージェントは世界のモデルを構築して学習し、将来の行動を計画して推論できるようになりました[36, 29]。オプション学習やオプション間/オプション内学習などの概念は、時間的抽象化を促進し、エージェントがより長い時間スケールで推論し、複雑なタスクを管理可能なサブ目標に分解することを可能にしています[38]。

しかし、人間中心のLLMの台頭により、焦点は自律学習から人間の知識の活用へと移行しました。RLHF(人間からのフィードバックによる強化学習)[9, 25]や言語モデルを人間の推論と整合させる手法[44]などの手法は非常に効果的であることが証明され、AI能力の急速な進歩を促しました。これらのアプローチは強力ではありましたが、しばしば強化学習の中核概念を迂回していました。RLHFは、機械推定値の代わりに人間の専門家を呼び出すことで価値関数の必要性を回避し、人間のデータから得られる強力な事前確率は探索への依存を減らし、人間中心の推論は世界モデルと時間的抽象化の必要性を軽減しました。

しかし、パラダイムシフトは、大切なものを失ってしまったと言えるかもしれません。人間中心の強化学習は、かつてないほど幅広い行動を可能にしましたが、同時にエージェントのパフォーマンスに新たな限界を設けてしまいました。エージェントは既存の人間の知識を超えることはできません。さらに、人間データの時代は、主に、根拠のない人間との短いインタラクションを想定した強化学習手法に焦点を当てており、根拠のある自律的なインタラクションの長いストリームには適していません。

経験の時代は、古典的な強化学習の概念を再考し、改善する機会をもたらします。この時代は、観測データに柔軟に根ざした報酬関数についての新たな考え方をもたらします。価値関数と、まだ不完全なシーケンスを持つ長いストリームからそれらを推定する方法を再考するでしょう。人間の事前学習とは根本的に異なる新しい行動を発見するための、原理的でありながら実用的な現実世界の探索方法をもたらします。グラウンデッドインタラクションの複雑さを捉える、世界モデルへの新しいアプローチが開発されるでしょう。時間的抽象化のための新しい手法により、エージェントは経験に基づいて、これまで以上に長い時間範囲で推論できるようになります。強化学習の基礎を基盤とし、その中核となる原理をこの新しい時代の課題に適応させることで、自律学習の可能性を最大限に引き出し、真に超人的な知能への道を切り開くことができます。

結果

AIエージェントが世界との相互作用から学習する「経験の時代」の到来は、これまでとは大きく異なる未来を約束します。この新しいパラダイムは、計り知れない可能性を秘めている一方で、以下の点を含む、慎重な検討を要する重要なリスクと課題も伴います。

ポジティブな面としては、経験学習は前例のない能力を解き放つでしょう。日常生活において、パーソナライズされたアシスタントは、継続的な経験のストリームを活用し、個人の健康、教育、または職業上のニーズに適応し、数か月から数年にわたる長期的な目標達成へと導きます。おそらく最も大きな変革をもたらすのは、科学的発見の加速でしょう。AIエージェントは、材料科学、医学、ハードウェア設計などの分野で、自律的に実験を設計・実施するようになります。これらのエージェントは、自身の実験結果から継続的に学習することで、新たな知識のフロンティアを迅速に探求し、前例のないペースで新しい材料、医薬品、技術の開発につながる可能性があります。

しかし、この新しい時代は重大かつ新たな課題ももたらします。人間の能力の自動化は生産性の向上を約束する一方で、こうした向上によって雇用が奪われる可能性も秘めています。エージェントは、長期的な問題解決、イノベーション、現実世界への影響に対する深い理解など、これまで人間だけが持つと考えられていた能力を発揮できるようになるかもしれません。

さらに、AIの誤用の可能性については一般的な懸念が存在するものの、長期的な目標を達成するために長期間にわたり自律的に世界と相互作用するエージェントからは、より高いリスクが生じる可能性があります。デフォルトでは、人間がエージェントの行動に介入して仲介する機会が少なくなるため、高い信頼と責任が求められます。人間のデータや人間の思考様式から離れていくことで、将来のAIシステムの解釈が困難になる可能性もあります。

しかし、経験学習によって特定の安全上のリスクが増大し、経験の時代への安全な移行を確実にするためにさらなる研究が必要であることを認めつつも、経験学習がいくつかの重要な安全上の利点をもたらす可能性もあることを認識する必要があります。

まず、経験的エージェントは自身が置かれている環境を認識しており、その行動は時間の経過とともにその環境の変化に適応することができます。固定型AIシステムを含む、事前にプログラムされたシステムは、環境のコンテキストを認識できず、展開された変化する世界に適応できなくなる可能性があります。たとえば、重要なハードウェアが故障したり、パンデミックが急速な社会変化を引き起こしたり、新しい科学的発見が急速な技術開発の連鎖を引き起こしたりする可能性があります。対照的に、経験的エージェントは、故障したハードウェアを回避したり、急速な社会変化に適応したり、新しい科学技術を受け入れて構築したりする方法を観察し、学習することができます。おそらくさらに重要なのは、エージェントは自分の行動が人間の懸念、不満、または苦痛を引き起こしていることを認識でき、これらの悪影響を回避するために行動を適応的に修正できることです。

第二に、エージェントの報酬関数自体も経験を通じて適応される可能性があり、例えば前述の二段階最適化(報酬の項参照)が用いられる。重要なのは、これが、ずれた報酬関数を試行錯誤によって時間の経過とともに段階的に修正できることを意味する点である。例えば、ペーパークリップの最大化 [5] などの信号を盲目的に最適化するのではなく、ペーパークリップの生産が地球上の資源をすべて消費する前に、人間の関心の兆候に基づいて報酬関数を修正することができる。これは、人間が互いに目標を設定し、システムを悪用したり、長期的な幸福を無視したり、望ましくない悪影響を引き起こしたりする人々を観察した場合に、その目標を適応させる方法に似ている。ただし、人間の目標設定と同様に、完全に一致する保証はない。

最後に、物理的な経験に依存する進歩は、現実世界で行動を実行し、その結果を観察するのにかかる時間によって本質的に制約されます。例えば、新薬の開発は、AI支援による設計であっても、依然として現実世界での試験を必要とし、一夜にして完了することはできません。これは、AIの潜在的な自己改善のペースに自然なブレーキをかける可能性があります。

結論

経験の時代は、AIの進化における極めて重要な転換点となるでしょう。今日の強固な基盤を基盤としつつ、人間由来のデータの限界を超え、エージェントは世界との相互作用からますます学習するようになります。エージェントは豊富な観察と行動を通じて、自律的に環境と相互作用します。そして、生涯にわたる経験の流れの中で適応を続け、その目標は、根拠のある信号のあらゆる組み合わせに向けられるようになります。さらに、エージェントは強力な非人間的推論を活用し、エージェントの行動が環境に及ぼす結果に基づいて計画を立てます。最終的には、経験データは人間が生成するデータの規模と品質を凌駕するでしょう。このパラダイムシフトは、強化学習(RL)におけるアルゴリズムの進歩を伴い、多くの領域において、人間の能力を凌駕する新たな能力を解き放つでしょう。

謝辞

著者は Thomas Degris、Rohin Shah、Tom Schaul、Hado van Hasselt からの有益なコメントと議論に感謝の意を表します。

参考文献